Définition
VARIABLE = VARIE + ABLE = PEUT VARIER
“Une variable est une quantité qui varie d’un sujet à un autre. Tout attribut, phenomène ou évenement qui peut prendre différentes valeurs”
La valeur que nous collectons chez un sujet est appelée “DONNEE”
Exemple pédagogique
Nous pouvons demander aux étudiants qui suivent le cours de statistique de donner (de façon anonyme) leurs
- Age
- Sexe
- Statut matrimonial
- Lieu de residence
- Poids
- Taille
Les femmes du Bénin en 2018 (données)
Nous avons extrait de l’enquête DHS du Bénin de 2018 les caractéristiques de 4617 femmes ayant au moins un enfant. Le tableau se présente comme suit
| 67.1 |
164.5 |
33 |
ALIBORI |
Rural |
0 |
5 |
| 62.7 |
161.8 |
39 |
ALIBORI |
Rural |
0 |
5 |
| 81.7 |
157.6 |
33 |
ALIBORI |
Rural |
0 |
4 |
| 53.8 |
152.4 |
30 |
ZOU |
Urban |
7 |
3 |
| 51.5 |
160.7 |
18 |
ZOU |
Urban |
9 |
1 |
| 53.7 |
150.1 |
23 |
ZOU |
Urban |
0 |
3 |
Le tableau comporte 4617 individus décrits par 7 variables et rassemble 4617 x 7 = 32319 valeurs.
Les femmes du Bénin en 2018 (métadonnées)
- poids : poids de la femme en kilogrammes
- taille : taille de la femme en centimètres
- age : âge de la femme en années révolues
- region : département de localisation au moment de l’enquête (10 modalités)
- milieu : type de milieu urbain ou rural
- educ : nombre d’années de scolarisation (0 à 17)
- nbenf : nombre d’enfants au moment de l’enquête
Source : Data and Health Survey (DHS), 2018.
Typologie initiale
La première distinction oppose les variables quantitatives (numériques) et qualitatives (non-numériques). Puis on distingue les variables discrètes (modalités finies) et continues modalités infinies)
Les variables quantitatives
- Une variable est dite quantitative si ses valeurs sont des variables numeriques, c’est à dire des chiffres ou des nombres.
- Ce sont des données sur lesquelles l’on peut appliquer des opérations mathematiques telles que la somme, la moyenne, etc.
- Les variables quantitatives peuvent être continues ou discrètes
Quantitatives continues ou discrètes ?
Les variables quantitatives continues font parties de l’ensemble des nombres réels \(\mathbb{R}\) tandis que les variables numériques discrètes font partie de l’ensemble des nombres entiers \(\mathbb{N}\).
Quantitatives de stock ou d’intensité ?
Une seconde distinction, très importante en cartographie, oppose les variables quantitatives de stock (absolue) et d’intensite (relative).
Une variable quantitative de stock est une variable qui exprime des quantités absolues que l’on peut additionner. Par exemple, on peut additionner la population ou la superficie de tous les départements pour obtenir la population totale d’un pays.
Une variable quantitative d’intensité est une variable qui exprime une intensité relative. On peut en faire la moyenne mais on ne peut pas l’additionner. Par exemple si on additionne la température ou la densité de population de tous les départements d’un pays on obtient des mesures dépourvues de signifcation
Exercice : quel est le type de ces variables ?
| 67.1 |
33 |
5 |
| 62.7 |
39 |
5 |
| 81.7 |
33 |
4 |
| 58.2 |
28 |
4 |
- la variable poids est quantitative continue : en effet on peut avoir une infinité de valeur dans l’intervalle compris entre le maximum et le minimum. Il s’agit d’une variable de stock car on peut additionner les poids de toutes les femmes.
- la variable nbenf est quantitative discrète : en effet le nombre d’enfant qu’a eu une femme est toujours entier. Il s’agit d’une variable de stock car on peut additionner les nombres d’enfants de toutes les femmes.
- la variable age est quantitative continué si elle est mesurée en âge exact ou quantitative discrète si elle est mesurée en âge révolu. Il s’agit d’une variable d’intensité car la somme des âges n’a pas de signification.
Les variables qualitatives
Une variable est qualitative si ses valeurs correspondent à des qualités, attributs, décrits par des chaînes de caractères ou éventuellement des nombres utilisés comme symboles (ex. le code des départements français 01, 02, …95 est une variable qualitative).
Exemples: sexe, couleur des cheveux, groupe sanguin, nationalité, niveau d’education, religion, …
Une variable qualitative (discrète) peut être nominale, ordinale ou cyclique.
Types de variables qualitatives
Une variable nominale est une variable comportant plusieurs modalités non ordonnées. Par exemple, la religion ou la nationalité.
Une variable ordinale est une variable dont les modalités peuvent se ranger dans un ordre logique du plus petit au plus grand. Par exemple, le diplôme le plus élevé obtenu par un individu.
Une variable cyclique est une cas particulier de modalités ordonnées mais sans point de départ ou d’arrivée. Par exemple, les mois de l’année.
Exercice : quel est le type de ces variables ?
| Rural |
ALIBORI |
| Urban |
ALIBORI |
| Rural |
ATACORA |
| Urban |
ATACORA |
| Urban |
ATLANTIQUE |
| Rural |
ATLANTIQUE |
- les deux variables sont de type qualitatif nominal. EN effet il n’y a pas d’ordre entre les types de milieu ou entre les départements du Bénin
Cas particulier des variables booléennes
Une variable booléenne (ou logique) ne prend que les deux valeurs “Vrai” ou “Faux”. Il s’agit donc d’une variable qualitative discrète.
Mais d’un point de vue mathématique on peut la coder 0 = Faux et 1 = Vrai ce qui permet, sous certaines condition de l’utilise comme variable quantitative discrète.
Dans le logiciel R, il existe un type particulier de variable appelé logical qui correspond à ce cas spéciques.
Cas particulier des variable booléenne
Si on considère la variable “A fait des études ?” on peut la résumer dans R soit sous la forme d’un tableau de dénombrement (variable qualitative) soit sous la forme d’une moyenne (variable quantitative) comme le montre l’exemple ci-dessous :
Typologie finale
On aboutit au schéma suivant des types de variables :
flowchart LR
A["Variable"]
B["Quanitative"]
C["Qualitative"]
D["Continue"]
E["Discrète"]
F["Stock"]
G["Intensité"]
H["Booléenne"]
K["Nominale"]
L["Ordinale"]
I["Cyclique"]
A --> B
A --> H
A --> C
B --> E
B --> D
D --> F
D --> G
E --> F
E --> G
C --> K
C --> L
C --> I
Création de variables
Le cas le plus simple consiste à créer une nouvelle variable à partir de variables existantes.
- Exemple 1 : On peut calculer la densité de population d’une région à partir de sa population et de sa surficie :
\(Densité_{hab/km^2} = \frac{Population_{hab.}}{Superficie_{km^2}}\)
- Exemple 2 : On peut calculer l’indice de masse corporelle d’un individus à partir de sa taille et de son poids :
\(IMC_{kg/m^2} = \frac{poids_{kg}}{(taille_m)^2}\)
Exemple de création
- Calculez l’ICM des 5 femmes de ce tableau :
| 1 |
67.1 |
164.5 |
….. |
| 2 |
62.7 |
161.8 |
….. |
| 3 |
81.7 |
157.6 |
….. |
| 4 |
58.2 |
160.4 |
….. |
| 5 |
58.4 |
166.8 |
….. |
Exemple de création
| 1 |
67.1 |
164.5 |
24.8 |
| 2 |
62.7 |
161.8 |
24.0 |
| 3 |
81.7 |
157.6 |
32.9 |
| 4 |
58.2 |
160.4 |
22.6 |
| 5 |
58.4 |
166.8 |
21.0 |
Réduction de variables
La réduction va consister typiquement à proposer un tableau simplifié des variables (tableau de dénombrement) contenues dans un tableau élémentaire. On distingue deux cas :
- variables discrètes(qualitatives ou quantitatives) : Dénombrement de chacune des modalités avec regroupement optionnel de celles-ci
- variables quantitatives continues : création obligatoire de classes avant d’effectuer le dénombement.
Dénombrement d’une variable discrète
Si l’on reprend l’exemple de l’ICM, le dénombrement va consister ici à calculer l’effectif (nombre) et la fréquence (pourcentage) de chacune des modalités.
| Insuffisance pondérale |
206 |
4.5 |
| Normal |
3234 |
70.0 |
| Surpoids |
789 |
17.1 |
| Obésité |
266 |
5.8 |
| Obésité sévère |
122 |
2.6 |
| Total |
4617 |
100.0 |
Dénombrement d’une variable quantitative continue
Il existe beaucoup de solutions pour créer des classes, chacune aboutissant à des résultats différents. Prenons l’exemple de la taille des femmes du Bénin qui varie entre 80 et 187cm
Quatre classes d’amplitudes égales
[1] 80.00 106.75 133.50 160.25 187.00
| [80,107] |
1 |
| (107,134] |
2 |
| (134,160] |
2819 |
| (160,187] |
1795 |
Quatre classes d’effectifs égaux
| (80,155] |
1165 |
| (155,159] |
1159 |
| (159,162] |
1145 |
| (162,187] |
1147 |
Classes “de convenance”
| Petite (< 150) |
314 |
| Moyenne (150-160) |
2444 |
| Grande (160-170) |
1711 |
| Très Grande(>170) |
148 |
Agrégation de variables
L’agrégation est un cas particulier de regroupement d’une ou plusieurs variables issues d’un premier tableau pour construire un second tableau où les lignes sont des individus de nature différente du tableau initial.
Un cas typique est celui de l’agrégation géographique qui fait passer d’un tableau d’individus à un tableau de lieux.
Prenons l’exemple des femmes du Bénin (tableau individuel) et transformons le en un tableau par département.
Agrégation de variables de stock
On utilise la fonction somme pour agréger des stocks. On peut ainsi sommer le nombre de femmes et d’enfant par département puis en déduire le nombre d’enfant par femme à ce niveau d’analyse.
| ALIBORI |
554 |
2078 |
3.8 |
| ATACORA |
431 |
1777 |
4.1 |
| ATLANTIQUE |
436 |
1648 |
3.8 |
| BORGOU |
565 |
2161 |
3.8 |
| COLLINES |
382 |
1398 |
3.7 |
| COUFFO |
301 |
1190 |
4.0 |
| DONGA |
345 |
1259 |
3.6 |
| LITTORAL |
334 |
970 |
2.9 |
| MONO |
236 |
877 |
3.7 |
| OUÉMÉ |
326 |
1122 |
3.4 |
| PLATEAU |
266 |
973 |
3.7 |
| ZOU |
441 |
1634 |
3.7 |
Agrégation de variables d’intensité
On peut également agréger les variables d’intensité en utilisant des indicateurs statistiques tels que la moyenne, la médiane, le minimum, le maximum, l’écart-type, … Prenons l’exemple de la variable taille.
Taille des femmes du Bénin par dépaertement (source : Enquête DHS, 2018)
| ALIBORI |
144.6 |
176.9 |
160.4 |
160.3 |
5.8 |
| ATACORA |
142.6 |
177.8 |
159.8 |
159.3 |
6.0 |
| ATLANTIQUE |
139.0 |
176.7 |
158.2 |
157.9 |
6.0 |
| BORGOU |
142.3 |
179.4 |
158.7 |
158.5 |
5.8 |
| COLLINES |
80.0 |
187.0 |
158.9 |
159.1 |
7.4 |
| COUFFO |
142.5 |
173.4 |
158.0 |
157.7 |
5.8 |
| DONGA |
141.0 |
174.5 |
158.6 |
158.5 |
5.4 |
| LITTORAL |
139.3 |
176.4 |
159.0 |
158.8 |
6.0 |
| MONO |
138.0 |
172.2 |
158.1 |
158.2 |
6.0 |
| OUÉMÉ |
140.6 |
178.9 |
158.8 |
158.5 |
6.2 |
| PLATEAU |
115.5 |
174.8 |
157.5 |
157.9 |
6.4 |
| ZOU |
139.1 |
175.0 |
156.9 |
156.6 |
6.1 |